2.3 数据变换

- 数据的归一化方法:
- min-max归一化(原因:机器学习对数据较为敏感,如果数据之间相差很大可能会造成错误 )

- z-score归一化(eg:回归任务的房价的输入特征)

- 分数降维

- 对数降维(eg:回归任务的房价预测值和真实值做log)

- min-max归一化(原因:机器学习对数据较为敏感,如果数据之间相差很大可能会造成错误 )
- 图片的归一化方法:
- 下采样:将图片从大分辨率下采样到小的分辨率(但是过度下采样会损失图片很多的细节)
- 图片存到不同文件系统,读取很慢;统一存到一个文件夹里,读取快
- image whitening
- 使得输入较少冗余
- 模型会收敛更快
- 视频的归一化方法:
- 电影平均视频2h,youtube平均时长11min
- 通常用十秒以内的段切片
- 将一段视频解码(通常用Gpu),采样一个系列的帧
- 文本的归一化方法:
- 词根化和语法化
- tokenization:一系列的tokens
- 用word来切割
- 用char来切割
- 用子词来切割